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摘 要 : 为 了 提高 故障 检测 和 分 类 能 力 ， 提 出 基于 概率 密度 PCA 的 多 模 态 过 程 故障 检测 算法 。 对 各 模 态 的 训练 数据 建 

立 PCA 模型 ， 计 算 各 个 模型 的 控制 限 和 匹配 系数 。 根 据 匹配 系数 计算 各 模 态 统一 的 控制 限 。 对 新 来 的 数据 ， 运 用 概率 
度 确定 其 模 态 。 新 来 数据 向 对 应 模 态 的 模型 上 投影 并 计算 统一 的 统计 量 ， 比 较 统 计量 与 控制 限 进行 多 模 态 过 程 故障 

检测 。 把 该 方法 应 用 到 数值 例子 和 半导体 过 程 中 ， 仿 真 结 果 表 明 ， 该 算法 在 分 类 及 多 模 态 过 程 故 障 检测 方面 具有 很 高 

的 准确 性 
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PCA based on probability density for fault detection of multimodal processes 


Guo Jinyu, Liu Yuchao, Li Yuan 
(College of Information Engineering, Shenyang University of Chemical Technology, Shenyang 110142, China) 


Abstract: In order to improve the ability of fault detection and classification, this paper proposed PCA based on probability 
density for fault detection of multimodal processes. It established PCA model for training data of each mode, and calculated the 
control limits and matching coefficients of each model. It calculated the unified control limit of each mode according to the 
matching coefficients. For a new data, it determined its mode by the probability density. It projected the new data to PCA model 
of the corresponding mode and calculated the unified statistics. It performed fault detection of multimodal processes by 
comparing the statistics with control limit. We applied the method to a numerical example and the semiconductor process. 
Simulation results show that the proposed algorithm has high accuracy in classification and fault detection of multimodal 


processes. 
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= 一 coefficients 
0 引言 性 。 近 年 来 ， 许 多 学 者 通过 不 同 角度 分 析 多 模 态 工业 过 程 ， 
罚 提出 了 多 种 故障 诊断 方法 "站 。 为 了 解决 具有 非 高 斯 、 非 线性 的 


近年 来 ， 随 着 科技 和 自动 化 水 平 的 不 断 提 高 ， 工 业 生产 过 ”多 模 态 间 欣 过 程 故 障 检测 问题 ，He 等 人 外 提出 基于 近邻 ( 
程 越 来 越 复杂 , 这 使 得 过 程 监控 越 来 越 受到 人 们 的 重视 号 3 。 nearest neighbor, KNN) 的 故障 检测 算法 。KNN 算法 对 多 模 态 非 
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中 基于 数据 驱动 的 故障 检测 技术 受到 国内 外 学 术 界 的 广泛 关注 ， ”线性 问题 是 有 效 的 ， 但 是 对 于 样本 容量 大 的 数据 集 其 计算 量 比 
以 主 元 分 析 (principal component ana- 较 大 ， 而 且 当 多 模 态 样本 方差 差别 较 大 时 ， 检 测 效果 不 理想 。 

lysis, PCA) ee 展 , 并 另外, KNN 算法 每 次 分 类 都 会 重新 进行 全 局 和 运算。 为 了 建立 单 
衍生 出 多 种 新 的 故障 检测 方法 上 9。PCA 是 一 种 对 数据 进行 化 。 个 模型 来 实现 多 模 态 过 程 的 监控 目的 ， 马 贺 贺 等 人 0 提出 基于 


简 的 方法 ， 但 是 它 只 能 提取 数据 的 全 局 信息 ， 会 造成 局 部 信息 。 局 部 离 群 因子 (local outlier factor，LOF) 的 方法 进行 故障 检测 。 

的 丢失 ， 而 且 处 理 非 线 性 问题 效果 不 理 ? 因为 LOF 值 适 用 于 基于 不 同 密度 的 数据 集群 , 此 时 五 出 此 
多 模 态 间 葡 过 程 具有 严重 的 非 线 性 、 时 变性 和 多 工 况 对 象 的 LOF 值 ， 以 更 确切 地 判断 其 是 否 为 一 个 噪声 点 。 但 此 方 
等 特性 ， 这 使 得 多 模 态 间歇 过 程 的 故障 诊断 更 加 具有 挑战 ”法 也 具有 一 定 的 局 限 性 ， 并 不 能 适用 于 所 有 的 场景 。 此 外 ， 
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的 计算 也 相对 较为 复杂 ， 准 确 性 不 高 。 最 近 ， 为 了 能 及 时 检测 
多 工 况 生产 过 程 中 的 故障 ， 刘 帮 莉 等 人 5 提出 基于 局 部 密度 估 
计 的 多 模 态 过 程 监控 策略 。 针 对 间 葡 过 程 的 多 工 况 和 非 线 性 特 
征 ， 李 元 等 人 [9 提出 基于 动态 多 向 局 部 离 群 因子 算法 

(dynamic ey local outlier factor, DMLOF )。Deng 等 人 [13] 
提出 基于 局 部 近邻 相似 度 分 析 的 多 模 态 故障 检测 方法 ， 将 该 方 
法 应 用 到 连续 过 程 的 故障 检测 中 。 郭 金玉 等 人 [在 此 基础 上 ， 
提出 基于 在 线 升级 主 样本 建 模 的 批 次 过 程 KNN 故障 检测 方法 。 
本 文 提 出 一 种 基于 概率 密度 PCA (PCA based on probability 
density, PD-PCA) a 法 。 运 用 概率 
密度 函数 1 引进 行 模 态 识别 , 在 此 基础 上 , 运用 PCA 进行 多 模 态 
间 敬 过 程 故障 检测 。 ke et 
多 模 态 间 敬 过程 故障 诊断 结果 更 加 准确 。 


1 ”基于 概率 密度 PCA 的 多 模 态 过 


1.1 概率 密度 函数 

核 密 度 估 计 〈Kerneldensity estimation，KDE) 0617， 是 一 
种 用 于 估计 概率 密度 函数 的 非 参数 方法 。 它 的 基本 思想 是 用 假 
定 的 正 态 分 布 计算 分 布 中 统计 样本 的 密度 。 设 半 , 宛 是 服从 
独立 同 分 布 的 随机 变量 ， 其 服从 的 分 布 密度 函数 为 J,(7) ， 
XeER ， 定 义 函 数 : 


使 得 


才 程 故障 检测 


人 1 
刀 ( 二 了 (D) 


为 密度 函数 (DD 的 核 密度 估计 。 其中: 天 (2) 称 为 核 函数 ; 
有 为 预先 给 定 的 正 数 , 通常 称 为 窗口 宽度 或 光滑 参数 ; n 为 样本 
个 数 。 概 率 密度 函数 用 于 检测 当前 时 刻 数据 点 属于 哪个 参考 训 
练 数据 集 ， 较 大 的 密度 表示 当前 时 刻 的 数据 在 训练 数据 集 内 ， 
本 文 利用 该 属性 进行 模 态 识别 。 对 于 一 个 新 获得 的 样本 xnew， 
其 核 密度 估计 器 为 


1 天 二 大， 
_ ty 
f(t) = Ce (2) 


其 中 : Xnewj 表示 xnew 的 第 j 个 变量 值 ，xij 表示 训 
练 数 据 集中 第 i 个 样本 的 第 j 个 变量 值 ，h 是 窗口 宽度 ; m 为 
变量 个 数 。 核 函数 天 雇 定 了 函数 图 形 的 凸 起 程度 ， 目 前 存在 很 
多 的 概率 密度 函数 。 在 实际 应 用 中 ， 高 斯 核 函 数 是 应 用 最 广泛 
的 。 本 文采 用 高 斯 核 ， 其 核 估计 函数 为 


f (x) = ex oe i (3) 


i=1,2,. ns 


aChinaXiv 会 作 期 而 


模式 的 过 程 进 行 监控 时 需要 建立 多 个 PCA 模型 中 。 假 设 生产 
过 程 包含 入 个 操作 模 态 ，X,” (s=1,2...N) 是 茶 一 模 态 矩阵 , 其 


中 x 为 该 模 态 的 标签 ， 对 ”进行 主 成 分 分 解 为 
X* = +E=T?P""+E (4) 
其 中 7% 是 主 元 得 分 矩阵 P2% 是 负载 第 阵 ，E 是 残 差 向 量 。 
在 利用 PCA 进行 故障 检测 时 , 常用 的 统计 指标 有 平方 预测 误差 
(squared prediction error SPE) (也 称 Q 统计 量 ) 和 Hotelling’s 
T。SPE 统计 量 反映 了 输入 变化 量 的 测量 值 对 主 元 模型 的 偏离 
程度 ， 是 对 模型 外 部 变化 的 一 种 度量 ;五 统计 量 反映 了 每 个 主 
元 在 变化 趋势 和 幅 值 上 偏离 模型 的 程度 ， 是 对 模型 内 部 变化 的 
一 种 度量 ， 它 可 以 用 来 对 多 个 主 元 同时 检测 。 


Ie 


模 态 > 的 SPE 统计 量 为 
SPE,,=|(1 -PP'x| <5 (5) 
其 中 : 8 表示 置信 水 平 为 C 的 控制 限 , 当 SPE 在 控制 限 内 时 ， 
即 认为 是 正常 样本 。 6 控制 限 的 计算 公式 为 
-6CC hs 十 1 十 + -Dm (0) 


1 1 


其 中 ， 0= 2 (i=1,2,3)， 有 =1-200 130* ;6, 为 标准 正 态 


分 布 在 置信 水 平 w 下 的 阔 值 ; 
矩阵 了 的 维 数 。 


1 为 PCA 模型 的 主 元 个 数 ; m 为 


模 态 r+ 的 Hotelling’s 7? 统计 量 定 义 为 


T?* =xiPAnP'™x, <T’ (7) 
其 中 ， A= diag{4，…",} ;， 工 > 表 示 置 信 度 为 & 的 控制 限 。 设 过 
程 正常 运行 时 的 样本 服从 多 元 正 态 分 布 ，T2 为 

_ ln —D) 

en (8) 
其 中 ， 互 ,是 带 有 7 和 zz! 个 自由 度 、 置 信 度 为 w 的 严 分 布 的 
临界 值 。 


在 计算 出 每 个 模 态 统计 量 的 控制 限 后 ， 为 了 使 多 模 态 数据 
进行 统一 的 检测 ， 需 要 对 各 个 模 态 的 控制 限 进行 匹配 。 本 文 以 
选取 公 倍 数 的 方法 确定 每 个 模 态 控制 限 的 匹配 系数 ， 从 而 达到 
统一 控制 限 的 目的 08。 多 模 态 SPE 统计 量 统一 的 控制 限 公 式 如 


Dr = 

关于 窗口 宽度 有 的 选择 ， 己 有 大 量 文献 研究 ， 建 议 根据 
体 情况 选择 合适 的 经 验 值 。 正 常 状态 下 的 训练 数据 集 容易 获得 
有 效 的 信息 , 因此 可 以 保证 KDE 的 性 能 。 如 果 当 前 样本 与 训练 
样本 同属 于 一 个 模 态 ， 其 密度 值 通常 会 比较 大 ; 和 否则， 密度 值 
接近 于 零 。 
1.2 多 模 态 PCA 模型 的 建立 
于 在 多 变量 统计 分 析 中 ， 主 元 分 析 可 以 有 效 地 提取 数据 
特征 ， 并 对 原始 数据 起 到 降低 维 数 的 作用 08， 所 以 对 多 个 操作 


F: 
SPE = TIsPe. (9) 
其 中 : N 为 模 态 的 总 数 ， 模 态 r 的 SPE 匹配 系数 为 


SPE, = Lee。 (10) 


多 模 态 天 统计 量 统一 的 控制 限 为 
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模 态 rx 的 T? 匹配 系数 为 
五 = 了 [二 (12) 


计算 新 来 测试 样本 与 训练 样本 的 概率 密度 ， 运 用 概率 密度 


期 二 
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2 ”仿真 结果 与 分 析 


2.1 工业 过 程 故 障 诊断 

近年 来 ， 随 着 现代 工业 和 科技 的 进步 以 及 计算 机 水 平 的 不 
断 提 高 ， 化 工 生产 过 程 设 备 越 来 越 趋 近 于 复杂 化 ， 自 动 控 制 系 
统 的 规模 也 越 来 越 大 ， 这 不 但 大 大 提高 了 生产 效率 ， 同 时 也 降 


最 大 的 训练 数据 标签 进行 模 态 划分 ， 计 算 所 属 模 态 标签 为 x 下 


的 统计 量 SPE, ,。 和 了 T”， 青 分 别 乘 以 匹配 系数 SPE, 和 T?， 


计算 出 统一 的 统计 量 ， 从 而 达到 在 统一 的 控制 限 下 进行 多 模 态 
过 程 检 测 的 目的 。 
1.3” 建 模 过 程 与 在 线 监 测 

采集 正常 工 况 下 各 个 模 态 的 数据 ， 首 先 对 各 个 模 态 的 训练 
数据 建立 PCA 模型 ,计算 各 个 模型 的 控制 限 和 匹配 系数 。 根 据 
匹配 系数 计算 各 个 模 态 统一 的 统计 量 和 控制 限 。 对 新 来 的 数据 ， 
计算 与 训练 数据 的 概率 密度 ， 运 用 概率 密度 最 大 的 训练 数据 标 
签 确定 新 数据 的 模 态 。 将 新 来 数据 向 对 应 模 态 的 PCA 模型 上 投 


氏 了 生产 成 本 。 但 同时 大 规模 的 化 工 设备 使 得 影响 系统 正常 运 
行 的 因素 大 大 增加 ， 由 于 系统 内 部 的 关联 越 来 越 密切 ， 一 个 部 
牛 的 异常 就 有 可 能 导致 整个 自动 控制 系统 故障 。 另 外 ， 化 工行 
业 生 产 环境 条 件 非 常 恶劣 ， 一 旦 操作 不 当 ， 玻 于 检查 或 者 出 现 
自然 灾害 ， 就 有 可 能 出 现 爆炸 、 毒 气 泄漏 的 危险 。 目 前 ， 在 化 
工 生 产 过 程 中 ， 爆 炸 或 泄露 现象 时 有 发 生 ， 这 不 仅 使 生产 遭受 
巨大 损失 ， 有 时 甚至 会 造成 人 员 伤 亡 ， 甚 至 对 生态 环境 造成 亚 
劣 的 影响 。 因 此 , 保证 化 工 生产 过 程 的 安全 稳定 运行 尤为 重要 。 
故障 诊断 技术 作为 一 种 监测 和 诊断 生产 过 程 故 障 的 有 
对 于 提高 现代 自动 控制 系统 的 可 靠 安 全 运行 、 保 证 化 工 过 程 的 
有 效 操作 具有 重要 作用 。 本 文通 过 基于 概率 密度 的 PCA 算法 及 


DD 


影 ， 根 据 匹 配 系数 计算 统一 的 统计 量 ， 比 较 统计 量 与 控制 限 进 
行 多 模 态 故障 检测 。 


其 主要 分 为 建 模 过 程 与 在 线 监 视 两 部 分 。 
1.3.1 建 模 过 程 


1) 对 正常 工 况 下 各 个 模 态 的 训练 数据 分 别 进 行 标准 化 处 理 。 


2) 建立 各 个 模 态 的 PCA 模型 ， 根 据 累积 贡献 率 选择 合适 
的 主 元 个 数 。 

3) 计算 各 个 模型 的 控制 限 和 匹配 系数 , 根据 匹配 系数 计算 
各 个 模 态 统一 的 统计 量 和 控制 限 。 
1.3.2 在 线 监 视 

1) 计算 新 来 测试 数据 与 训练 数据 的 概率 密度 。 


2) 根 据 概率 密度 最 大 的 训练 数据 标签 确定 测试 数据 的 模 态 。 


3) 将 新 来 数据 向 对 应 模 态 的 PCA 模型 上 投影 ， 根 据 匹 配 
系数 计算 统一 的 统计 量 。 

4) 将 统计 量 与 控制 限 进行 比较 。 若 统计 量 大 于 控制 限 ， 则 
该 反映 时 刻 的 数据 样本 是 故障 的 ， 否 则 是 正常 的 。 


lin 
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控制 限 1 控制 限 2 控制 限 者 坟 刘 
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图 1 基于 PD-PCA 方法 的 多 模 态 过 程 故 障 检测 流程 


基于 PD-PCA 方法 的 多 模 态 过 程 故障 检测 流程 如 图 1 所 示 。 


时 发 现 故障 ， 对 保证 化 工 生产 过 程 的 正常 运行 具有 重要 意义 。 
2.2 ”多 模 态 数值 例子 

本 节 通 过 一 个 人 工 合成 的 多 模 态 数值 例子 091， 验 证 基于 概 
率 密度 的 PCA 算法 对 多 模 态 过 程 故 障 检测 的 有 效 性 。 在 此 数据 
中 每 个 样本 有 两 个 变量 ， 并 且 线性 相关 。 在 模 态 1 中 ， 变 量 yi 
服从 [0，1] 的 均匀 分 布 ; 在 模 态 2 中 ,变量 六 服从 [1，2] 的 均匀 


分 布 。 在 2 个 模 态 中 ,noise 服从 均值 为 0、 标 准 差 为 0.01 的 正 
态 分 布 的 噪声 。 具 体 数 据 来 源 于 式 (13): 

Mode 1: y,=2y,+noise 

Mode2: =1.3y +noise +6 (13) 


按 上 述 模型 产生 两 个 模 态 的 500 个 正常 数据 作为 训练 样本 ， 
100 个 正常 数据 作为 校 验 样本 ,5 个 异常 数据 作为 故障 样本 。 图 
2 是 训练 样本 、 校 验 样本 、 故 障 样本 的 数据 分 布 散 点 图 。 从 图 2 
可 以 看 出 该 数值 例子 是 多 模 态 的 。 


10 性 
oO Training 
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图 2 数据 分 布 散 点 图 
通常 所 用 的 故障 检测 性 能 指标 ， 有 故障 检测 率 、 误 报 率 和 


漏 报 率 等 。 故 障 检测 率 是 指 系统 诊断 报告 出 实际 发 生 故 障 的 部 
件 或 设备 的 数量 占 所 有 发 生 故 障 部 件 的 百分比 。 即 检测 到 超出 
控制 限 的 故障 样本 占 所 有 故障 样本 的 百分比 。 误 报 是 指 实际 没 
有 故障 情况 而 系统 诊断 报告 出 某 一 部 件 或 设备 故障 。 误 报 率 定 
义 为 超出 控制 限 的 正常 样本 占 所 有 正常 样本 的 百分比 。 漏 报 是 
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指 故 障 已 经 发 生 ， 而 系统 未 能 诊断 到 作出 报警 响应 或 指示 等 处 
明报 率 定义 为 未 超出 控制 限 的 故障 样本 占 所 有 故障 样本 的 
百分比 。 故 障 检测 率 和 漏 报 率 之 和 为 1。 文 中 选择 误 报 率 和 漏 中 
报 率 作为 指标 ， 评 价 算法 的 故障 检测 效果 。 

本 文 对 多 模 态 数值 例子 运用 PCA、KNN、LOF 和 PD-PCA 


〇 ”训练 数据 
米 ” 校 验 数据 
口 ”故障 数据 
一 -一 -一 95% 控 制 限 


二 < 


0 100 200 300 400 500 600 700 


方法 进行 故障 检测 ， 检 测 结果 如 图 3 所 示 。KNN 中 ， 近 邻 数 二 

有 3。LOF 中 , 近邻 数 为 23。PCA 和 PD-PCA 的 主 元 个 数 通过 * ee os 
累计 贡献 率 确定 。 从 图 3 可 以 看 出 , PCA 算法 的 SPE 统计 量 检 和 

测 出 1 个 故障 数据 ，2 个 样本 出 现 误 报 ， 卫 统计 量 检 测 出 1 个 

故障 样本 ,3 个 样本 出 现 误 报 .KNN 算法 检测 出 个 4 故障 数据 ， 

4 个 样本 出 现 误 报 。LOF 算法 检测 出 1 个 故障 数据 ，2 个 样本 nk 

出 现 误 报 .-PD-PCA 算法 的 SPE 统计 量 检测 出 全 部 的 故障 数据 ， 1 

无 样本 出 现 误 报 ，T? 统 计量 检测 出 4 个 故障 样本 ， 无 样本 出 现 加 

误 报 。 与 PCA、KNN 和 LOF 方法 相 比 ，PD-PCA 故障 检测 率 § E 
较 高 ， 误 报 率 相对 较 低 ， 从 而 验证 PD-PCA 算法 的 有 效 性 。 


表 1 是 四 种 算法 对 数值 例子 的 检测 结果 。 由 表 1 可 以 看 出 ， 
PD-PCA 算法 的 SPE 检测 指标 和 T 检测 指标 检测 效果 均 明 显 
优 于 PCA 的 检测 效果 。KNN 算法 的 漏 报 率 较 低 , 但 是 相对 PD- 
PCA 算法 其 误 报 率 相对 较 高 。LOF 算法 的 误 报 率 较 低 , 但 是 未 


700 


完全 检测 出 全 部 的 故障 ， 这 是 由 于 LOF 易 受 离 群 样本 的 影响 。 

综 上 所 述 ， 与 其 他 三 种 算法 对 比 ，PD-PCA 算法 有 较 低 的 误 报 a 
率 和 漏 报 率 ， 验 证 了 该 算法 的 有 效 性 和 优越 性 。 人 
表 1 多 模 态 数值 例子 的 检测 结果 人 

(c) LOF 

PCA KNN LOF PD-PCA 

O 〇 训练 数据 

SPE 7 距离 LOF SPE 7 eo 

看 一 -一 -一 95% 控制 限 

误 报 率 (%) 2 3 4 2 0 0 贞 
漏 报 率 (%) 80 40 20 80 0 20 
2.3 半导体 生产 过 程 数 据 0 100 0 0 a6 500 600 700 


半导体 生产 过 程 作为 一 个 完善 的 工业 过 程 仿真 平台 ， 在 基 
于 数据 驱动 的 故障 检测 研究 领域 得 到 了 广泛 的 应 用 。 本 文 应 用 
半导体 工业 实例 一 一 Al 堆 腐 蚀 过 程 00 当 比较 不 同 的 故障 检测 和 
方法 的 性 能 。 半 导体 数据 来 源 于 美国 德州 仪器 公司 的 半导体 生 


产 过 程 实际 数据 ， 是 个 型 型 的 非 线性 、 时 变 、 多 阶段 和 多 工 况 0 100 200 300 400 500 600 700 
的 复杂 多 模 态 间歇 过 程 。 数 据 集中 的 变量 EndPt A 表明 了 这 些 
(d) PD-PCA 


寺 性 ， 如 图 4 所 示 。 该 数据 是 由 3 个 模 态 的 108 个 正常 批 次 和 
21 个 故障 批 次 组 成 ,这些 数据 分 别 从 3 次 实验 (1996 年 二 月 、 
月 和 四 月 ) 中 产生 的 。 由 于 两 个 批 次 过 程 (第 56 个 正常 批 次 每 个 批 次 是 不 等 长 的 ， 持 续 时 间 在 95~112s 间 变 化 。 本 文 
和 第 12 个 故障 批 次 ) 丢失 大 量 的 数据 ， 所 以 实际 的 批 次 为 107 ” 运用 最 短 长 度 法 获得 等 长 批 次 。 为 了 消除 传感器 中 初始 的 波动 
批 正常 数据 和 20 批 故障 数据 。 通 过 改变 变量 产生 20 个 故障 影响， 去 除开 始 的 5 个 样本 ,保留 85 个 样本 以 适应 最 短 的 批 
如 表 2 所 示 。 在 107 个 正常 批 次 中 1~34 批 次 为 第 一 模 态 ,35~70 ”次 。 将 三 维 建 模 数 据 站 (96x85x17) 沿 批 次 方向 展开 成 二 维 矩 阵 
批 次 为 第 二 模 态 ， 71~107 批 次 为 第 三 模 态 。 每 个 模 态 分 别 选 ” 导 (96x1445)。 对 校 验 数据 和 故障 数据 也 进行 同样 的 处 理 。 

取 32 个 批 次 用 于 建 模 ， 剩 下 的 正常 批 次 作为 校 验 批 次 用 来 验 对 二 维 数据 矩阵 分 别 运用 PCA、KNN、LOF 和 PD-PCA 方 
证 模型 的 准确 性 ， 因 此 建 模 批 次 为 96 个 ， 正 常 校 验 批 次 为 11 法 进行 建 模 ， 并 对 11 个 校 验 批 次 和 20 个 故障 批 次 数据 进行 故 
个 ， 故 障 批 次 为 20 个 。 从 21 个 测量 变量 中 选取 17 个 变量 作 ”人 障 检测 。KNN 中 ， 近 邻 数 大 3。LOF 中 ， 近 邻 数 为 23。 PCA 
为 检测 变量 ， 如 表 3 所 示 。 和 了 PD-PCA 的 主 元 个 数 由 主 元 贡献 率 决定 。 表 4 是 四 种 算法 对 
导体 数据 的 检测 结果 。 由 表 4 可 以 看 出 ，PCA 和 PD-PCA 算 


图 3 四 种 方法 对 多 模 态 数值 例子 的 故障 检测 图 
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法 的 卫 检 测 指标 检测 


误 报 率 相对 较 高 , 但 是 PD-PCA 算法 的 SPE 检测 指标 检测 出 全 


出 相同 数量 的 故障 批 次 , PD-PCA 算法 的 
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表 4 四 种 算法 对 半导体 数据 的 检测 结 


故障 PCA KNN LOF PD-PCA 
部 的 故障 批 次 ， 而 且 没 有 误 报 ， 其 故障 检测 效果 明显 优 于 PCA 批 次 SPE 距离 LOF SPE 也 
算法 。KNN 和 LOF 算法 的 误 报 率 较 低 ， 但 是 未 完全 检测 出 全 1 VY y y yy 
部 的 故障 ， 这 是 由 于 KNN 和 LOF 易 受 离 群 样本 的 影响 。 综 上 y y y 
所 述 ， 与 其 他 三 种 算法 对 比 ，PD-PCA 算法 有 较 低 的 误 报 率 和 Y 
漏 报 率 ， 说 明 该 方法 对 于 多 模 态 数据 的 故障 检测 非常 有 效 ， 验 4 YY  Y y y y 
证 了 该 算法 的 有 效 性 和 优越 性 。 5 y 
6 y 
soo 7 yy 1 y 
8 y Y Y y 
9 y y 
Zz 10 y y y y y 
外 11 y y y y 
时 12 y y y y 
13 Y Y Y Y 
14 y y .| y 
"0 2 10 60 80 100 120 15 y y y y 
时 间 16 y y y y 
图 4 数据 集中 的 变量 EndPt A 1 1 YY 
18 yy 1 y y y 
表 2 半导体 生产 过 程 所 用 的 故障 19 y y y y 
序号 序号 故障 序号 故障 20 y y y y 
1 TCP+50 11 C12+5 误 报 率 (%) 0 0 0 0 0 18 
2 RF - 12 12 BC13 - 5 漏 报 率 (%) 15 75 20 35 0 75 
3 RF+10 13 Pr+2 
4 Pr+3 14 TCP - 20 3 ”结束 语 
5 TCP+10 15 TCP - 15 
6 Bcl13+5 16 cl2 .10 本 文 提出 一 种 基于 PD-PCA 的 多 模 态 过 程 故障 检测 方法 。 
7 pr -2 17 RF- 12 该 算法 用 于 处 理 多 模 态 故障 检测 过 程 ， 能 够 最 大 化 地 分 离 多 模 
8 cl2 .5 18 Bcl3+10 态 的 正常 和 故障 数据 。 运 用 概率 密度 能 够 准确 的 进行 模 态 识别 ， 
9 He chuck 19 Pr+1 从 而 更 加 准确 地 检测 出 校 验 数据 和 故障 数据 来 自 哪 个 模 态 。 将 
10 TcP+30 20 TCP+20 本 文 方法 应 用 到 数值 例子 和 实际 的 半导体 工业 数据 中 ， 仿 真 结 
果 表 明 ， 与 传统 的 故障 检测 算法 相 比 ， 本 文 算法 降低 了 误 报 率 
表 3 半导体 生产 过 程 所 用 检测 变 和 漏 报 率 ， 验 证 了 该 方法 的 有 效 性 。 
序号 过 程 变量 序号 过 程 变量 参考 文献 : 
1 BC13 流量 10 RF 功率 
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